EDA (進階版) 🤔 摘要寫得和原文越像,老師給的分數會越高嗎? 直覺上來說,摘要和原文一點都不像,應該會超低分,代表根本沒有在根據原文寫作;但如果和原文一字...
在一個充滿活力的校園里,安娜老師是深受學生喜愛的教師。但是這幾年她發現,在這個信息爆炸的時代,擁有良好的摘要能力變得尤為重要。然而,許多學生在總結時往往抓不住...
前情提要 昨天我們從主題建模、prompt name 與 score 的分佈等,更全面地探勘本次賽題的訓練資料集;也透過設計一些專用於這種 code compe...
前情提要 在前一天的內容中,我們透過設計提交 Simple Baseline 和 Retrieval-based Method 來間接地確認 hidden te...
前情提要 昨天通過一番資料分析,確認主辦方提供的 17,307 筆 training data 中,有 12,873 筆完全一模一樣的 essay 內容出現在...
在一個平凡的周末午後,高中老師安娜埋首於堆積如山的學生作文中。每一篇作文都承載著學生們的心血與努力,但三個班每人每週一篇長文寫作,安娜的批改速度總是趕不上學生...
CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行業數據挖掘標準流程)是目前最為廣泛使用的數...
前言、摘要 基本的功能已經實作完畢,只剩下陸續增加店家資訊。我們也希望平台可以讓愈多人使用愈好,為了邁向遠大的目標,我們可以做一些準備。接下來幾天內容會包含系統...
# 注意,本文有些與統計相關的知識,由於本人對於統計沒有很多研究,如果有寫錯的地方麻煩跟我說 Orz # 用統計分析解決問題 先前介紹的 1R 只用資料的一個屬...
# information entropy 要怎麼算? 基本的公式在此: ps.1 Pn 表示 個別分類結果的占總數量有多少 ps.2 通常 log 以 2...
# 建立決策樹(Decision Tree) [決策樹圖] 決策樹是一種非常直覺且容易理解的分析模型,樹上的每個節點(node)代表資料的分類依據,資料通過節點...
繼續說說昨天的 1R 當資料屬性值有缺少時怎麼辦 如果說某一條資料裡的某個屬性值不見時,會造成 1R 無法使用,因為我們會不知道要它是啥,也就沒辦法拿它來分類...
# 簡單至上,1-rule, 1R 就如同這個方法的名字一樣,使用一個屬性(attribute)來做分類,產生一個只有一層的決策樹。 1R 簡單、低成本,但別看...
# 有了資料之後... 當輸入的資料都準備好之後,需要透過一些分析方法來取得我們想要的資訊。 往後幾天會介紹資料分析中最基本的幾種方式、如何實作以及產生的結果。...
# 單純的呈現方式:Instance-based Representation Instance-based representation 其實滿原始的,這個方...
# Trees 這就是 tree,又稱為 decision tree。 樹幫助我們根據資料的屬性,來表達分類或者決策的結果,樹可以由上到下,很清晰地表達一個分...
# 如何呈現資料 在先前介紹資料處理的第一步時,有說到我們可以依據不同的需求,進行不同種類的學習模式,來取得我們所需的資訊。 為了能夠精準的表達不同學習模式的結...
# 分析檔案的第一步 準備輸入檔案是任何分析的第一步,但並不是把想要的研究的資料湊在一起就好, 除了必須依照程式的規格來建構檔案,也因為現實中的資料往往存在著各...
# 資料的呈現 當我們決定了我們的分析目標後,就必須找一個方式來整理資料,如果資料沒有經過整理,就會像一堆糾纏在一起的毛線一樣,根本無從去做分析跟理解。 資料有...
# 四種學習種類 在分析資料之前,我們得先決定要讓我們的機器做怎麼樣的學習、想要得到什麼樣子的結果,有四種基本的形式: 分類學習(classification...
Weka 是...? Weka (Waikato Environment for Knowledge Analysis),是一套提供 data mining...
應用案例這回事網路上很多,也有各種書籍跟論文在介紹和探討不同領域的應用,這邊就大概講一下有什麼比較常見的應用吧。 商業上的應用 商業應用算一般人滿常見到的一種資...
# 數據挖掘, 挖什麼? 在過去,小規模的資料分析只要靠人就可以做了,然而隨著網路的發展以及資料儲存技術的提升,資料越來越多,慢慢出現那種資料量大到無法以人工的...
好吧,這是小弟第二次參賽,上次半途而廢了 上課上得要死要活還要準備文章真的不容易啊 XD 這次剛好有接觸到一些 data mining 的東西,想說可以來稍微...